Come il cervello dei primati
riconosce le immagini
DIANE
RICHMOND & ROBERTO COLONNA
NOTE E NOTIZIE - Anno XX – 11 marzo
2023.
Testi
pubblicati sul sito www.brainmindlife.org della Società Nazionale di
Neuroscienze “Brain, Mind & Life - Italia” (BM&L-Italia). Oltre a notizie
o commenti relativi a fatti ed eventi rilevanti per la Società, la sezione
“note e notizie” presenta settimanalmente lavori neuroscientifici selezionati
fra quelli pubblicati o in corso di pubblicazione sulle maggiori riviste e il cui
argomento è oggetto di studio dei soci componenti lo staff dei recensori della Commissione
Scientifica della Società.
[Tipologia del testo: RECENSIONE]
La straordinaria capacità del cervello nostro e
delle scimmie di riconoscere scene naturali, contesti complessi di oggetti vari
per colori e forme, figure nelle più varie condizioni di luce e di
presentazione continua a costituire un problema per la neurofisiologia dell’elaborazione
visiva di alto livello, quella che implica l’intervento di processi cognitivi.
Se si mostra a un bambino una fotografia scattata in
una foresta tropicale nella quale si intravvedono nel pittoresco intreccio di
tronchi, rami, piante e liane, i profili di vari animali, e poi gli si mostra
un’altra foto scattata poco dopo nello stesso posto, identica in tutto tranne
un particolare – manca ad esempio uno degli animali – il bambino rileva la
differenza e non considera uguali le due immagini. Se poi si mostrano allo
stesso bambino cento fotografie scattate nella stessa ora del giorno in angoli della
foresta simili a quello della prima foto e si chiede al bambino di trovare fra
quelle l’immagine che aveva visto per prima, il bambino dirà correttamente che molte
assomigliano, ma nessuna è quella che ha visto per prima. Se fra quelle cento
foto se ne include una scattata nel punto esatto della prima, ma quasi a sera
con colori completamente diversi e senza gli animali, il bambino la identificherà
e dirà che il luogo è quello della prima foto in una diversa ora del giorno.
La ricerca degli ultimi decenni ha reso sempre più evidente
l’inadeguatezza delle spiegazioni basate sulle proprietà analitiche classiche[1] dei
neuroni della corteccia visiva per rendere conto dell’abilità di sintesi di
quantità impressionanti di informazioni provenienti da un’immagine e dell’istantaneo
confronto con quelle provenienti da un’altra per decidere se sono uguali o
diverse, spesso in una frazione di secondo.
Le immagini che si formano nella retina sono pattern
dinamici complessi e vari per intensità di luce e colore. L’elaborazione visiva
di basso livello è responsabile del rilievo di vari tipi di contrasto in
queste immagini, mentre l’elaborazione di livello intermedio è implicata nella
definizione di elementi fondamentali quali contorni, campi di movimento
e superfici; l’elaborazione di alto livello integra informazioni
provenienti da varie fonti cerebrali, quale stadio finale della via visiva, e
realizza la base funzionale dell’esperienza visiva cosciente.
In pratica, si è accertato che l’elaborazione di alto
livello dipende da segnali top-down che permeano le emergenti rappresentazioni
sensoriali bottom-up di significato, quale quello che risiede nelle
memorie a lungo termine, a breve termine e connesse con l’ideazione. Thomas D.
Albright dieci anni fa sintetizzava così: “L’elaborazione visiva di alto
livello seleziona attributi significativi in termini comportamentali dell’ambiente
visivo”[2]. Noi,
oggi, possiamo aggiornare così il concetto: l’elaborazione visiva di alto
livello integra la rappresentazione sensoriale con tutti i valori psichici di
senso e significato associabili in base alle memorie della specie e all’apprendimento
individuale.
La ricerca in questo campo ha fatto importanti
progressi grazie alle osservazioni su primati non umani e, proseguendo nel
solco di questa esperienza, Carlos Ponce, Katherine N. Mueller e colleghi hanno
studiato nei macachi la loro nota capacità di comprendere immediatamente le
immagini che vedono, prendendo le mosse dalla definizione dell’informazione
visiva codificata dai neuroni. A questo scopo hanno impiegato il machine
learning per creare immagini sintetiche che attivano fortemente le cellule
nervose della corteccia, formando esempi delle loro rappresentazioni. I
ricercatori hanno denominato queste immagini prototipi.
È possibile interpretare i prototipi usando le reti
neurali e i report umani, ma come percepiscono realmente queste
immagini le scimmie? Una risposta si trova nello studio qui recensito.
(Mueller
K. N. et al., Macaque recognize features in synthetic images derived from ventral stream neurons. Proceedings of the National Academy of Sciences USA – Epub ahead of print doi: 10.1073/pnas.2213034120, 2023).
La provenienza degli autori è la seguente: Department of Neurobiology, Harvard Medical School,
Boston, MA (USA); Department of Neuroscience, Washington University School of
Medicine, St. Louis, MO (USA).
L’elaborazione visiva di alto livello è stata
studiata soprattutto in relazione all’abilità di identificazione degli
oggetti. È noto da tempo che, nei primati, la corteccia temporale inferiore
è la sede primaria della percezione degli oggetti. Il sistema visivo corticale,
che nel complesso include 32 aree, si estende dall’area visiva primaria della
corteccia occipitale (V1 o area 17 di Brodmann) al lobo temporale, dove
convergono molti tipi di informazione visiva diversa.
I primi indizi sulla via visiva che media il
riconoscimento degli oggetti risalgono alla fine del XIX secolo, quando il
neurologo americano Sanger Brown e il fisiologo britannico Edward Albert Schafer
scoprirono che le lesioni del lobo temporale nei primati causavano la perdita
del riconoscimento degli oggetti. Un sintomo rilevato anche in clinica
neurologica e distinto dalla condizione di lesione occipitale in cui si perde
la capacità di percepire gli attributi visivi elementari come colore, movimento
e distanza: nella lesione temporale i pazienti vedevano bene, ma non
riconoscevano più gli oggetti. I neurologi inizialmente chiamarono questa
condizione “cecità psichica”, ma la definizione parve a molti impropria, in quanto
la visione è conservata. Pochi sanno che la definizione ancora in uso di agnosia
visiva fu introdotta da Sigmund Freud.
I neuroni della corteccia temporale inferiore
codificano stimoli visivi complessi e sono organizzati in colonne, che costituiscono
parte di una rete per il riconoscimento degli oggetti. L’identificazione
degli oggetti si basa sulla costanza percettiva e una costanza ancora
più generale è rappresentata dall’individuazione di singoli oggetti come
appartenenti alla stessa categoria semantica. L’elaborazione visiva di alto
livello che consente di riconoscere gli oggetti ha nella memoria visiva
un costituente essenziale e imprescindibile.
La questione chiave che si affronta nello studio del
processo che consente di identificare ciò che si vede fu chiaramente
evidenziata dal celebre neuropsicologo Hans-Lukas Teuber che, commentando l’agnosia
visiva di pazienti che non riconoscevano più oggetti comuni, disse: “È come se
una normale percezione fosse privata del suo significato”. E proprio questa è
la difficoltà per i neurofisiologi della visione: occuparsi della formazione
del significato nel cervello.
Senza avventurarci in una definizione
scientificamente soddisfacente di “significato”, consideriamo la connotazione
operativa del concetto più impiegata in questo tipo di ricerca: per significato
si intende l’oggetto corrispondente all’immagine vista, memorizzato nell’uomo
col nome attribuito dalla propria lingua madre, e nella scimmia reso evidente
dal riconoscimento per appaiamento.
Uno degli aspetti più sorprendenti del
riconoscimento degli oggetti, se lo esaminiamo in un’ottica neurofisiologica, è
costituito dal fatto che, a dispetto delle migliaia di immagini retiniche diverse
che si formano per ciascuna cosa che vediamo, abbiamo la capacità di
riconoscere un oggetto come lo stesso. Basti pensare che il variare della
distanza, dell’angolo visivo, delle caratteristiche e dell’intensità dell’illuminazione,
dà luogo a immagini sempre diverse e, sia detto per inciso, ne occorre un
numero enormemente elevato nella memoria di un dispositivo di intelligenza artificiale
(IA) se vogliamo che abbia delle prestazioni simili alle nostre per riconoscere
una palla, un libro, un vaso, una bottiglia. Ma ciò che ci sorprende è l’abilità
che abbiamo reso evidente nell’esempio iniziale del bambino che, fra cento
immagini simili di uno scorcio di foresta tropicale, riesce a trovare l’unica
dello stesso luogo anche se ha caratteristiche di chiaroscuro e colore del
tutto diverse perché l’immagine è stata ripresa quasi a sera. Come è possibile?
È possibile perché uno stesso neurone, e
sempre quello, nella corteccia temporale inferiore è attivato da varie
immagini retiniche dello stesso oggetto e mai da immagini che assomigliano per
forma, colore, chiaroscuro e dimensione. A questa risposta venuta dalla ricerca
non può non seguire la domanda: “Come fa quel neurone a riconoscere l’identità
dell’oggetto al di là dell’apparenza?”
La ricerca non ha dato ancora una risposta
esauriente a questa domanda, ma i ricercatori notano che nella corteccia
prefrontale vi sono neuroni che si attivano sempre reagendo ad oggetti
materialmente diversi fra loro ma appartenenti alla stessa classe
concettuale, in quanto semanticamente correlati.
“Significato” in questi studi connota anche funzione,
utilità o intenzione. Nel caso del riconoscimento visivo il significato
è formato dalle precedenti esperienze sensoriali dell’osservatore e dalle
associazioni fra queste esperienze. Questi attributi sono fondamentali nell’elaborazione
di alto livello e includono un’accresciuta selettività percettiva e neuronica
per gli oggetti familiari così come legami associativi fra le rappresentazioni
neuroniche degli oggetti. Molte indagini sono state svolte in questo campo e
oggi si sa molto dei correlati neuronici del riconoscimento dell’oggetto, ma si
sa ancora poco circa i circuiti e le reti responsabili di queste
rappresentazioni neuroniche.
Tanto premesso, si comprende come lo studio qui recensito
appartenga a quel tipo di lavoro sperimentale che sta cercando di colmare il gap,
lo iato, il salto che esiste tra le nozioni neurofisiologiche relative a
singoli neuroni o gruppi neuronici e il sostrato che consente le sorprendenti
sintesi di riconoscimento al semplice sguardo di scene e immagini complesse da
parte delle scimmie così come dell’uomo.
Carlos Ponce, Katherine N. Mueller e colleghi hanno
approcciato il problema rilevando che l’abilità dei primati di riconoscere
elementi virtualmente in ogni tipo di immagine richiede una spiegazione computazionale
soddisfacente. Un’ipotesi avanzata da tempo prevede che i neuroni della
corteccia visiva apprendano pattern da scene, oggetti e strutture delle
configurazioni, e poi utilizzino questi pattern come schema per
rappresentare l’informazione visiva che entra attraverso la vista. Rifacendosi
a questa ipotesi, gli autori dello studio hanno impiegato algoritmi di machine
learning per simulare i pattern visivi immagazzinati nell’attività
neuronica, realizzando immagini “altamente attivanti”, cui hanno dato il nome
di prototipi.
Già realizzati in precedenza, tali prototipi
provenienti dai neuroni infero-temporali (IT) spesso rappresentano elementi e
parti del mondo reale, come volti di scimmie e parti del corpo, in una
similarità stabilita via pretrained neural networks, cioè reti neurali
pre-addestrate[3] e
partecipanti umani naïve[4]. Ma
finora non si era compreso se le scimmie stesse percepissero la similarità tra
i prototipi neuronici e gli elementi del mondo reale. I ricercatori
hanno allora indagato per accertare se le scimmie rilevavano la somiglianza tra
i prototipi e il mondo reale, usando un compito sperimentale classico, molto
efficace: two-alternative forced choice task, cioè il “compito della
scelta forzata tra due alternative”.
Ponce, Mueller e colleghi hanno addestrato i macachi
partecipanti allo studio alla saccade per immagini sintetiche di scimmie, e
successivamente hanno valutato come i primati classificavano i prototipi
sintetizzati dai neuroni IT e dalla corteccia visiva primaria (V1, area 17). È
risultato che i macachi classificavano i prototipi IT come propri co-specifici
più spesso di quanto facevano con i prototipi di V1 e con le immagini del
generatore random, e le loro scelte erano, in parte, previste dalle reti
neurali convoluzionali (convolutional neural networks). I
risultati, per il cui dettaglio si rimanda al resoconto tecnico del lavoro
originale, hanno consentito agli autori di confermare che primati come i
macachi partecipanti allo studio sono in grado di astrarre informazioni generali
sulla forma da immagini di oggetti del mondo reale.
Infine, i ricercatori hanno eseguito la parte per
molti versi più interessante dello studio: hanno sottoposto i risultati
ottenuti con i macachi alla verifica di partecipanti umani alla sperimentazione,
ottenendo piena conferma.
Quanto emerso dallo studio di Ponce, Mueller e
colleghi fornisce ulteriori evidenze a supporto della tesi sostenuta in
precedenza dagli stessi autori, ossia che i prototipi provenienti dai
neuroni corticali rappresentano astrazioni interpretabili del mondo
visivo.
Gli autori della nota ringraziano la dottoressa Isabella Floriani per la correzione della bozza
e invitano alla lettura delle recensioni di argomento connesso che appaiono nella sezione “NOTE E NOTIZIE” del
sito (utilizzare il motore interno nella pagina “CERCA”).
Diane
Richmond & Roberto Colonna
BM&L-11 marzo 2023
________________________________________________________________________________
La Società Nazionale
di Neuroscienze BM&L-Italia, affiliata alla International Society of Neuroscience,
è registrata presso l’Agenzia delle Entrate di Firenze, Ufficio Firenze 1, in data
16 gennaio 2003 con codice fiscale 94098840484, come organizzazione scientifica
e culturale non-profit.
[1] Si intendono le proprietà scoperte da Hubel e Wiesel e dalla ricerca dei due decenni successivi.
[2] Kandel, Schwartz, Jessell,
Siegelbaum, Hudspeth (eds), Principles of Neural Sciences, p. 621 (trad.
nostra), McGraw Hill Medical, New York 2013.
[3] Ponce C. R. et al. Cell 177, 999-1009.e10, 2019.
[4] Bardon A., Xiao W., Ponce C. R.,
Livingstone M. S., Kreiman G., PNAS USA 119,
e2118705119, 2022.